加载中...

SWE-bench Verified 评测基准详情

Name: Software Engineering Bench - Verified
Creator: OpenAI

在人工智能领域，随着大型语言模型（LLMs）在各类任务中的表现不断提升，评估这些模型的实际能力变得尤为重要。尤其是在软件工程领域，AI 模型是否能够准确地解决真实的编程问题，是衡量其真正应用潜力的关键。而在这方面，OpenAI 推出的 *SWE-bench Verified* 基准测试，旨在提供一个更加可靠和精确的评估工具，帮助开发者和研究者全面了解 AI 模型在处理软件工程任务时的能力。

更新2026-03-08

问题数量

500

发布机构

OpenAI

评测类别

编程与软件工程

评测指标

Accuracy

支持语言

英文

难度等级

高难度

简介

OpenAI基于SWE-Bench提炼的更加准确和更具代表性的大模型代码工程任务解决能力评测

SWE-bench Verified 大模型得分排行榜

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模式说明:

normal

thinking

low

medium

high

deeper thinking

parallel_thinking

图表加载中...

详细评测数据

当前榜单暂无并行思考结果

排名	模型
1	Claude Sonnet 4.5default	82	2025-09-30	未知
2	Claude Sonnet 5default	82	2026-02-08	未知
3	Claude Opus 4.5default	80.9	2025-11-25	未知
4	Claude Opus 4.6深度思考模式（无工具）	80.84	2026-02-05	未知
5	Claude Opus 4.6default	80.8	2026-02-05	未知
6	Gemini 3.1 Pro Previewdefault	80.6	2026-02-20	未知
7	Claude Sonnet 4default	80.2	2025-05-23	未知
8	MiniMax M2.5default	80.2	2026-02-12	2290
9	GPT-5.2default	80	2025-12-11	未知
10	GPT-5.2思考模式（无工具）	80	2025-12-11	未知
11	Claude Sonnet 4.6default	79.6	2026-02-17	未知
12	Claude Opus 4.1default	79.4	2025-08-06	未知
13	GLM-5default	77.8	2026-02-11	7440
14	Claude Sonnet 4.5default	77.2	2025-09-30	未知
15	GPT-5.1-Codex-Maxdefault	76.8	2025-11-19	未知
16	Kimi K2.5default	76.8	2026-01-27	10000
17	Qwen3.5-397B-A17Bdefault	76.4	2026-02-16	397
18	Qwen3.5-397B-A17B思考模式（工具）	76.4	2026-02-16	397
19	GPT-5.1default	76.3	2025-11-12	未知
20	GPT-5.1思考模式 High（工具）	76.3	2025-11-12	未知
21	Gemini 3.0 Pro (Preview 11-2025)default	76.2	2025-11-18	未知
22	Qwen3-Max-Thinkingdefault	75.3	2026-01-26	10000
23	o3-prodefault	75	2025-06-10	未知
24	M2.1default	74.8	2025-12-23	2300
25	Claude Opus 4.1default	74.5	2025-08-06	未知
26	Claude Opus 4.1default	74.5	2025-08-06	未知
27	GPT-5 Codexdefault	74.5	2025-09-15	未知
28	Step 3.5 Flashdefault	74.4	2026-02-02	1960
29	GLM-4.7default	73.8	2025-12-22	3580
30	Grok 4 Heavydefault	73.5	2025-07-10	未知

将鼠标移至此处继续加载剩余 62 条

SWE-bench Verified 评测基准详情

更新2026-03-08

问题数量

500

发布机构

OpenAI

评测类别

编程与软件工程

评测指标

Accuracy

支持语言

英文

难度等级

高难度

简介

OpenAI基于SWE-Bench提炼的更加准确和更具代表性的大模型代码工程任务解决能力评测

SWE-bench Verified 大模型得分排行榜

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模式说明:

normal

thinking

low

medium

high

deeper thinking

parallel_thinking

图表加载中...

详细评测数据

当前榜单暂无并行思考结果

排名	模型
1	Claude Sonnet 4.5default	82	2025-09-30	未知
2	Claude Sonnet 5default	82	2026-02-08	未知
3	Claude Opus 4.5default	80.9	2025-11-25	未知
4	Claude Opus 4.6深度思考模式（无工具）	80.84	2026-02-05	未知
5	Claude Opus 4.6default	80.8	2026-02-05	未知
6	Gemini 3.1 Pro Previewdefault	80.6	2026-02-20	未知
7	Claude Sonnet 4default	80.2	2025-05-23	未知
8	MiniMax M2.5default	80.2	2026-02-12	2290
9	GPT-5.2default	80	2025-12-11	未知
10	GPT-5.2思考模式（无工具）	80	2025-12-11	未知
11	Claude Sonnet 4.6default	79.6	2026-02-17	未知
12	Claude Opus 4.1default	79.4	2025-08-06	未知
13	GLM-5default	77.8	2026-02-11	7440
14	Claude Sonnet 4.5default	77.2	2025-09-30	未知
15	GPT-5.1-Codex-Maxdefault	76.8	2025-11-19	未知
16	Kimi K2.5default	76.8	2026-01-27	10000
17	Qwen3.5-397B-A17Bdefault	76.4	2026-02-16	397
18	Qwen3.5-397B-A17B思考模式（工具）	76.4	2026-02-16	397
19	GPT-5.1default	76.3	2025-11-12	未知
20	GPT-5.1思考模式 High（工具）	76.3	2025-11-12	未知
21	Gemini 3.0 Pro (Preview 11-2025)default	76.2	2025-11-18	未知
22	Qwen3-Max-Thinkingdefault	75.3	2026-01-26	10000
23	o3-prodefault	75	2025-06-10	未知
24	M2.1default	74.8	2025-12-23	2300
25	Claude Opus 4.1default	74.5	2025-08-06	未知
26	Claude Opus 4.1default	74.5	2025-08-06	未知
27	GPT-5 Codexdefault	74.5	2025-09-15	未知
28	Step 3.5 Flashdefault	74.4	2026-02-02	1960
29	GLM-4.7default	73.8	2025-12-22	3580
30	Grok 4 Heavydefault	73.5	2025-07-10	未知

将鼠标移至此处继续加载剩余 62 条

SWE-bench Verified 评测基准详情

简介

相关资源

SWE-bench Verified 大模型得分排行榜

详细评测数据

SWE-bench Verified 评测基准详情

简介

相关资源

SWE-bench Verified 大模型得分排行榜

详细评测数据

SWE-bench Verified 大模型得分排行榜

详细评测数据

SWE-bench Verified详细排名数据表格

SWE-bench Verified 大模型得分排行榜

详细评测数据

SWE-bench Verified详细排名数据表格